我们介绍了一种通用方法,通过推断推出了不变性,用于提高具有未知感知变化的部署环境中代理的测试时间性能。通过推动的不变性,不能产生不变性,而不是产生不变性的视觉功能,而是将部署时间转变为无监督的学习问题。这是通过部署一个直接算法的实践中实现的,该算法试图将潜在特征的分布与代理的先前经验匹配,而无需依赖于配对数据。虽然简单,但我们表明这个想法导致各种适应情景的令人惊讶的改进,无需访问部署时间奖励,包括相机姿势和照明条件的更改。结果提出了具有基于图像的图像的机器人环境挑战挑战性的骚扰控制套件。
translated by 谷歌翻译
灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力,我们提出了共同的基准。我们设计和构建了机器人平台,该平台托管在MPI上供智能系统托管,可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码(类似于计算群集)来远程控制平台。使用此设置,i)我们举办机器人竞赛,来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii)我们发布了在这些比赛中收集的数据集(包括数百个机器人小时),而我们为研究人员提供了访问自己项目的这些平台。
translated by 谷歌翻译
Dexterous操作是机器人中的一个具有挑战性和重要问题。虽然数据驱动方法是一个有希望的方法,但由于流行方法的样本效率低,当前基准测试需要模拟或广泛的工程支持。我们为Trifinger系统提供基准,这是一个开源机器人平台,用于灵巧操纵和2020年真正的机器人挑战的重点。在挑战中取得成功的基准方法可以一般被描述为结构性政策,因为它们结合了经典机器人和现代政策优化的元素。这种诱导偏差的包含促进样品效率,可解释性,可靠性和高性能。该基准测试的关键方面是验证跨模拟和实际系统的基线,对每个解决方案的核心特征进行彻底消融研究,以及作为操纵基准的挑战的回顾性分析。本工作的代码和演示视频可以在我们的网站上找到(https://sites.google.com/view/benchmark-rrc)。
translated by 谷歌翻译
Due to the usefulness in data enrichment for data analysis tasks, joinable table discovery has become an important operation in data lake management. Existing approaches target equi-joins, the most common way of combining tables for creating a unified view, or semantic joins, which tolerate misspellings and different formats to deliver more join results. They are either exact solutions whose running time is linear in the sizes of query column and target table repository or approximate solutions lacking precision. In this paper, we propose Deepjoin, a deep learning model for accurate and efficient joinable table discovery. Our solution is an embedding-based retrieval, which employs a pre-trained language model (PLM) and is designed as one framework serving both equi- and semantic joins. We propose a set of contextualization options to transform column contents to a text sequence. The PLM reads the sequence and is fine-tuned to embed columns to vectors such that columns are expected to be joinable if they are close to each other in the vector space. Since the output of the PLM is fixed in length, the subsequent search procedure becomes independent of the column size. With a state-of-the-art approximate nearest neighbor search algorithm, the search time is logarithmic in the repository size. To train the model, we devise the techniques for preparing training data as well as data augmentation. The experiments on real datasets demonstrate that by training on a small subset of a corpus, Deepjoin generalizes to large datasets and its precision consistently outperforms other approximate solutions'. Deepjoin is even more accurate than an exact solution to semantic joins when evaluated with labels from experts. Moreover, when equipped with a GPU, Deepjoin is up to two orders of magnitude faster than existing solutions.
translated by 谷歌翻译
设计加固学习(RL)代理通常是一个艰难的过程,需要大量的设计迭代。由于多种原因,学习可能会失败,并且标准RL方法提供的工具太少,无法洞悉确切原因。在本文中,我们展示了如何将价值分解整合到一类广泛的参与者批评算法中,并使用它来协助迭代代理设计过程。价值分解将奖励函数分为不同的组件,并学习每个组件的价值估计值。这些价值估计提供了对代理商的学习和决策过程的见解,并使新的培训方法可以减轻常见问题。作为演示,我们介绍了SAC-D,这是一种适合价值分解的软角色批评(SAC)的变体。 SAC-D保持与SAC相似的性能,同时学习一组更大的价值预测。我们还介绍了基于分解的工具来利用此信息,包括新的奖励影响指标,该指标衡量了每个奖励组件对代理决策的影响。使用这些工具,我们提供了分解用于识别和解决环境和代理设计问题的几种证明。价值分解广泛适用,易于将其纳入现有算法和工作流程中,使其成为RL从业人员的工具箱中的强大工具。
translated by 谷歌翻译
物体负担是人类对象互动中的一个重要概念,它基于人类运动能力和物体的物理特性提供有关行动可能性的信息,从而使任务受益,例如行动预期和机器人模仿学习。但是,现有数据集通常:1)将负担能力与对象功能混合在一起;2)将负担与目标相关的动作混淆;3)忽略人类运动能力。本文提出了一个有效的注释方案,通过将目标 - 毫无疑问的运动动作和将类型抓住为负担性标签,并引入机械作用的概念来解决这些问题,以表示两个对象之间的动作可能性。我们通过将该方案应用于Epic-Kitchens数据集并通过“负担能力识别”等任务来测试我们的注释,从而提供新的注释。我们定性地验证了接受注释训练的模型可以区分负担能力和机械行动。
translated by 谷歌翻译
我们研究了人们与对象互动的动态环境中识别对象实例的问题。在这样的环境中,对象的外观通过与其他实体的相互作用,手动阻塞,背景变化等动态变化。这会导致外观内部范围更大的外观变化,而不是在静态环境中。为了发现这种情况下的挑战,我们新建立了在Epic-Kitchens数据集中建立的1,500多个实例的基准,该数据集包括自然活动并对IT进行了广泛的分析。实验结果表明(i)针对特定实例的外观变化的鲁棒性(ii)集成低级(例如,颜色,纹理)和高级(例如,对象类别)功能(iii)重叠对象上的前景特征选择是进一步改进所必需的。
translated by 谷歌翻译
大规模的语言模型(LLM),例如GPT-2,BERT和ROBERTA已成功应用于ASR N-OX-t-bess Rescore。但是,在最新的ASR系统附近,它们是否或如何使竞争性受益。在这项研究中,我们将LLM重新验证纳入最具竞争力的ASR基准之一:构象异构体模型。我们证明,LLM的双向,预处理,内域填充和上下文增强可以实现一致的改进。此外,我们的词汇分析阐明了这些组件中的每一个如何有助于ASR性能。
translated by 谷歌翻译
当人类播放虚拟赛车游戏时,他们使用游戏屏幕上的视觉环境信息来了解环境中的规则。相比之下,优于人类玩家的最先进的现实赛车游戏AI代理商不使用基于图像的环境信息,而是由环境提供的紧凑和精确的测量。在本文中,提出了一种基于视觉的控制算法,并在使用Gran Turismo Sport(GTS)的现实赛车场景中的相同条件下与人类播放器性能进行比较,这被称为高保真逼真的赛车模拟器。在所提出的方法中,构成在传统最先进的方法中的部分观测的环境信息被从游戏屏幕图像中提取的特征表示替换。我们证明,即使使用游戏屏幕图像,所提出的方法也在高速驾驶场景下执行专家人级车辆控制,作为游戏屏幕图像作为高维输入。此外,它在时间试用任务中以GTS中内置的AI占此胜过,其分数将其分为大约28,000人的人类玩家。
translated by 谷歌翻译
在本文中,我们介绍了D3RLPY,一个用于Python的开放式离线深度加强学习(RL)库。D3RLPY通过用户友好的API支持多个离线深度RL算法以及在线算法。为协助深入的RL研发项目,D3RLPY提供实际和独特的功能,如数据收集,导出部署,预处理和后处理,分配Q函数,多步学习和方便的命令行界面。此外,D3RLP还提供了一种新颖的图形界面,使用户能够在没有编码程序的情况下训练离线RL算法。最后,实现的算法与D4RL数据集进行了基准测试,以确保实现质量。可以在github上找到d3rlpy源代码:\ url {https://github.com/takuseno/d3rlpy}。
translated by 谷歌翻译